用WordStat看中国日报新闻(二)
本文作者:王碧琪
文字编辑:王玉婷
技术总编:余术玲
爬虫俱乐部云端课程来袭!
爬虫俱乐部于2020年7月在线上举行的Stata和Python培训课程在腾讯课堂纷纷上线啦!现在关注公众号并在朋友圈转发推文,即可获得600元课程优惠券,集赞50个再领200元课程优惠!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!
爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握Stata软件进阶操作,涉及内容包括基本字符串函数及其应用、正则表达式、法律与制度数据网络爬虫技巧、判案文书的文本分析等技术。课程全部采用最新版Stata16软件(提供Stata16试用版, 试用期一个月)进行教学,课程通过案例教学模式,专题式的讲解使你能在短时间内掌握Stata的精髓,精选的实例和详实的配套资料能让你在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。同时,此次云端课程提供线上答疑。详情请参考《8月Stata数据分析法律与制度专场来啦!》
一、简介
在《用WordStat看中国日报新闻》中,介绍了使用WordStat提取新闻内容的关键词。有时候单个英文词不能表示完整含义,如United States,这类短语包含多个单词表示特定含义。因此,有必要借助短语提取对文本分析的关键词提取进行补充。
二、软件操作
将待处理数据news.dta 读入Stata(注意:待处理数据存储路径中不能包含中文,否则软件将无法识别),点击“用户-Wordstat-Content Analysis”进入软件开始分析。
(一)短语提取
设置短语中包含的单词数量为2-5,出现的频率最低为3。
Frequency | 短语出现的频率 |
NO.CASES | 短语出现的case数量 |
%CASES | 短语出现的case所占的百分比 |
LENGTH | 短语长度 |
TF IDF | "词频"(TF)和"逆文档频率"(IDF)两个值相乘。 某个词对文章的重要性越高,它的TF-IDF值就越大。 |
将上述结果利用表格形式展示出来。只需要点击图标
三、结语
结合上一篇推文,综合来看,待分析文本内容和美国人权、流行病相关。
本文的短语提取补充关键词提取,可以帮助我们迅速了解一段文本的主要内容,无需大量代码。WordStat还有更多相关功能,有需求的小伙伴们可以继续探索一下~~
一招轻松合并文件——openall命令介绍
补全股票代码位数的一百种姿势
高校经管类核心期刊发文排行榜|2010-2019
PDF文本信息提取(二)
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。